Enlaces relacionados

Comparte

  • del.icio.us
  • zabaldu
  • aupatu
  • meneame
  • digg

Si le ha parecido interesante el artículo puede ayudar a difundirlo

Zure iritzia / Su opinión

Participa

Premios

  • Artetsu Saria 2005

    Arbaso Elkarteak Eusko Ikaskuntzari 2005eko Artetsu sarietako bat eman dio Euskonewseko Artisautza atalarengatik

  • Buber Saria 2003

    On line komunikabide onenari Buber Saria 2003. Euskonews y Media

  • Argia Saria 1999

    Astekari elektronikoari Merezimenduzko Saria

XML y su importancia en la actualidad

XML (Extensible Markup Language) es un lenguaje de marcado de carácter general. Creado en 1998 por W3C (World Wide Web Consortium), es un estándar internacional libre y gratuito.

Los lenguajes de marcado (markup language) son lenguajes informáticos que utilizan marcas o etiquetas para definir la estructura, presentación y/o formato de los textos. El marcado se lleva a cabo añadiendo al contenido original del texto etiquetas con una función o significado determinados, y gracias a ellas es posible que los programas informáticos puedan procesar o interpretar adecuadamente los textos.

XML es extensible (extensible) pues ofrece al usuario la posibilidad de definir sus propios elementos: el usuario puede definir marcas o etiquetas de su gusto, y estructurar el documento en función de dichas etiquetas. De hecho, deberíamos decir que XML más que un lenguaje es un metalenguaje, ya que ofrece la oportunidad de definir y utilizar diferentes lenguajes o aplicaciones. XML, per se, no define más que la sintaxis, regulando cómo escribir y organizar texto y marcas en el documento.

El objetivo fundamental de XML es intercambiar datos estructurados entre sistemas de información, fundamentalmente a través de Internet. Se trata de un formato de texto plano, lo que facilita enormemente la transferencia de información, logrando independencia con respecto a las diferentes plataformas. Utilizando XML se puede marcar cualquier documento. Además, como acepta Unicode, es válido para cualquier idioma. El estándar Unicode permite codificar electrónicamente caracteres escritos en cualquier lengua. XML es un formato autodocumentado que, además de por máquinas, puede ser leído e interpretado por personas.

Para que los documentos XML sean procesables deben estar bien formados (well-formed) y cumplir estrictas normas sintácticas. El modelo de datos de los documentos XML es jerárquico y está formado por dos estructuras principales: elementos y atributos. Los elementos pueden ser simples o complejos. Los elementos simples están formados por valores de datos básicos (cadenas de caracteres o strings); los complejos, por el contrario, suelen contar con una estructura jerárquica formada por otros elementos. Los atributos son utilizados para describir información complementaria (metainformación).

He aquí, a modo de ejemplo, una parte del documento XML que podríamos utilizar para codificar este mismo artículo:

<articulo idioma=”es”>
<titulo>XML y su importancia en la actualidad</titulo>
<autores>
<autor>Ana Arruarte</autor>
<autor>Xabier Artola</autor>
</autores>º
<texto>
<seccion n=”1”>
<p>...</p>
<p>...</p>
<p>XML es extensible...</p>
...
</seccion>
...
</texto>
</articulo>

El marcado aceptado para un tipo de documento concreto se refleja a través de un esquema. El esquema define la gramática de un tipo de documento. Si un documento XML está bien formado y, además, el contenido cumple las reglas de un esquema o una gramática concretos, se dice que el documento es válido (valid). Los lenguajes de esquema más conocidos son DTD y XML Schema. Pero también hay otros: RELAX NG, Schematron, etc.

Además de los lenguajes de esquema, deben mencionarse también los siguientes: XPath, lenguaje básico para referenciar los diferentes componentes de los documentos XML; XSLT, lenguaje de programación para transformar documentos XML; y XQuery, utilizado para consulta.

Cuando un tipo de documento tiene un uso muy difundido y está aprobado por una institución o grupo, se denomina aplicación XML. A través de una aplicación XML se pueden marcar documentos de un tipo concreto, sin que cada cual tenga que inventar sus propias etiquetas. Ejemplos de esas aplicaciones o lenguajes XML son SVG, para codificar imágenes vectoriales con XML, DocBook para la edición de libros técnicos o TEI, iniciativa internacional que define y ofrece directrices para codificar textos de muy diversos tipos (literatura, diccionarios, etc.) usando XML.

Hemos mencionado ya que Internet es uno de los bancos de prueba principales de XML. XML proviene de SGML (Standard Generalized Markup Language). SGML es un complejo metalenguaje de marcado creado en la década de los 70. HTML, por su parte, es una aplicación SGML que ofrece un conjunto limitado de etiquetas para describir páginas web. En HTML las etiquetas son, fundamentalmente, de cara a la presentación y no están pensadas para nada que no sea la presentación de la página. En 1996 intentaron crear una versión simplificada de SGML para la web, manteniendo el estilo pero haciendo más sencillo su manejo. Así, en 1998 surgió XML 1.0. XML, a diferencia de HTML, es un formato destinado a representar la estructura y el significado de la información, el contenido y no la apariencia que tendrá en el navegador: las características visuales correspondientes al contenido se reflejan y guardan aparte, utilizando páginas de estilo XSL o CSS.

La importancia de XML es alta en la tecnología web actual, ya que es la base de numerosos procesos y técnicas. Si nos centramos en la evolución de la web, podría decirse que desde el HTML estático conocido con el nombre de Web 1.0 –en la que no se creaban las páginas conforme se solicitaban, tal y como sucede en la Web 2.0– hasta las aplicaciones y servicios que ofrece la web actual, se ha avanzado enormemente. Por ejemplo, la herramienta de Web 2.0 RSS1, posibilita un mecanismo de sindicación para difundir y distribuir noticias a través de la red, sirviéndose para ello de un formato XML concreto.

Pero, más allá de los servicios y aplicaciones interactivas y colaborativas ofrecidas por la Web 2.0, cada vez se menciona más la web semántica, que podría ser pieza fundamental de la telaraña futura bautizada ya con el nombre de Web 3.0. Un documento XML no tiene “significado” por sí mismo, salvo el que le demos nosotros. Para que un programa o una máquina lo interprete hay que darle una semántica, hay que dotar de significado a la estructura, elementos y atributos de dicho documento. Por ejemplo, ¿cómo puede “saber” un programa qué significa el elemento <titulo> del ejemplo anterior?

La denominada web semántica viene a cubrir, precisamente, esa carencia de significado. RDF (Resource Description Framework) es otro lenguaje de W3C, basado en la lógica y la lingüística, que nos ofrece la base para describir los recursos de la web y las relaciones entre ellos. La esencia de RDF es ofrecer e implantar una infraestructura para interpretar unívocamente los recursos y sus relaciones. Con frecuencia las expresiones RDF se expresan en XML.

En lo que respecta al uso y aplicaciones de XML, hay que decir que está presente en muchas áreas de la informática actual. XML se utiliza para marcar documentos de carácter variado: bibliotecas digitales, corpus textuales, en la representación y transferencia de información del comercio electrónico, etc.

Como hemos mencionado anteriormente, XML se utiliza mucho en el mundo de las aplicaciones web; ahí está la tecnología Ajax, por ejemplo. También es la base de la comunicación con los servicios web. Los servicios web son sistemas de software que ofrecen soporte, vía web, a la interacción entre aplicaciones informáticas. Los protocolos utilizados generalmente para encauzar dicha comunicación a través de la red, como por ejemplo SOAP (Simple Object Access Protocol) o XML-RPC (XML Remote Procedure Call), se basan en XML para llevar a cabo el intercambio de datos.

Por otra parte, también está adquiriendo importancia en el mundo de las bases de datos, no sólo como soporte para la transferencia de datos sino como formato de almacenamiento. En este sentido, debemos mencionar las bases de datos que utilizan documentos XML como unidades de almacenamiento fundamentales: bases de datos nativas XML.

Consideramos que la importancia de XML radica en constituir la base para tecnologías tan diversas. Además, el hecho de ser un estándar aceptado le da valor añadido. Consideramos de gran interés dominar esta tecnología, no sólo para los informáticos sino también para profesionales de otros ámbitos.

1 Siglas utilizadas para referirse a los formatos Rich Site Summary, RDF Site Summary y/o Really Simple Syndication.

Eusko IkaskuntzaAsmozEusko Media